基本上有三种不确定性量化方法(UQ):(a)强大的优化,(b)贝叶斯,(c)决策理论。尽管(a)坚固,但在准确性和数据同化方面是不利的。 (b)需要先验,通常是脆弱的,后验估计可能很慢。尽管(c)导致对最佳先验的识别,但其近似遭受了维度的诅咒,风险的概念是相对于数据分布的平均值。我们引入了第四种,它是(a),(b),(c)和假设检验之间的杂种。可以总结为在观察样本$ x $之后,(1)通过相对可能性定义了可能性区域,(2)在该区域玩Minmax游戏以定义最佳估计器及其风险。最终的方法具有几种理想的属性(a)测量数据后确定了最佳先验,并且风险概念是后部的,(b)确定最佳估计值,其风险可以降低到计算最小封闭的最小封闭式。利益图量下的可能性区域图像的球(这是快速的,不受维数的诅咒)。该方法的特征在于$ [0,1] $中的参数,该参数是在观察到的数据(相对可能性)的稀有度上被假定的下限。当该参数接近$ 1 $时,该方法会产生一个后分布,该分布集中在最大似然估计的情况下,并具有较低的置信度UQ估计值。当该参数接近$ 0 $时,该方法会产生最大风险后验分布,并具有很高的信心UQ估计值。除了导航准确性不确定性权衡外,该建议的方法还通过导航与数据同化相关的稳健性 - 准确性权衡解决了贝叶斯推断的脆弱性。
translated by 谷歌翻译
Missing data is a common concern in health datasets, and its impact on good decision-making processes is well documented. Our study's contribution is a methodology for tackling missing data problems using a combination of synthetic dataset generation, missing data imputation and deep learning methods to resolve missing data challenges. Specifically, we conducted a series of experiments with these objectives; $a)$ generating a realistic synthetic dataset, $b)$ simulating data missingness, $c)$ recovering the missing data, and $d)$ analyzing imputation performance. Our methodology used a gaussian mixture model whose parameters were learned from a cleaned subset of a real demographic and health dataset to generate the synthetic data. We simulated various missingness degrees ranging from $10 \%$, $20 \%$, $30 \%$, and $40\%$ under the missing completely at random scheme MCAR. We used an integrated performance analysis framework involving clustering, classification and direct imputation analysis. Our results show that models trained on synthetic and imputed datasets could make predictions with an accuracy of $83 \%$ and $80 \%$ on $a) $ an unseen real dataset and $b)$ an unseen reserved synthetic test dataset, respectively. Moreover, the models that used the DAE method for imputed yielded the lowest log loss an indication of good performance, even though the accuracy measures were slightly lower. In conclusion, our work demonstrates that using our methodology, one can reverse engineer a solution to resolve missingness on an unseen dataset with missingness. Moreover, though we used a health dataset, our methodology can be utilized in other contexts.
translated by 谷歌翻译
简介:人工智能(AI)有可能促进CMR分析以进行生物标志物提取的自动化。但是,大多数AI算法都经过特定输入域(例如单扫描仪供应商或医院量化成像协议)的培训,并且当从其他输入域中应用于CMR数据时,缺乏最佳性能的鲁棒性。方法:我们提出的框架包括一种基于AI的算法,用于对短轴图像的双脑室分割,然后进行分析后质量控制,以检测错误的结果。分割算法在来自两家NHS医院(n = 2793)的大型临床CMR扫描数据集上进行了培训,并在此数据集(n = 441)和五个外部数据集(n = 6808)上进行了验证。验证数据包括使用所有主要供应商的CMR扫描仪在12个不同中心获得的一系列疾病的患者的CMR扫描。结果:我们的方法产生的中位骰子得分超过87%,转化为观察者间变异范围内心脏生物标志物中的中值绝对错误:<8.4ml(左心室),<9.2ml(右心室),<13.3G(左心室),<13.3G(左心室所有数据集的心室质量),<5.9%(射血分数)。根据心脏疾病和扫描仪供应商的表型的病例分层显示出良好的一致性。结论:我们表明,我们提出的工具结合了在大规模多域CMR数据集中训练的最先进的AI算法和分析后质量控制,使我们能够从多个中心,供应商和心脏病。这是AI算法临床翻译的基本步骤。此外,我们的方法以无需额外的计算成本而产生一系列心脏功能(填充和弹出率,区域壁运动和应变)的附加生物标志物。
translated by 谷歌翻译